查看原文
其他

热点聚焦 | 主观题的自动评分

主观题的自动评分是测试领域关注的一个焦点。其基本方法是:利用语料库语言学、自然语言处理、信息检索等学科的知识和技术,可以从一批文本中提取多个反映文本质量的特征;以这些文本特征为自变量、人工评分为因变量,能够构建对文本质量具有较强预测力的多元回归方程;该方程可用于对同一题目的其他文本进行自动评分。主观题的自动评分在大规模英语考试和日常教学中都具有很大的实践价值。一方面,由于我国大型英语考试的考生众多,主观题阅卷需要耗费大量人力物力。计算机可以代替一名评分员,和另一名人工评分员交叉使用,大大减轻人力负担;另一方面,由于国内英语写作、翻译等课堂的学生较多,计算机可以辅助教师评分,评分效率会大大提高,这样可以增加练习的次数、克服班级人数的限制。计算机评分系统也可用于学生自学和自测。


王金铨教授


以往的翻译自动评价系统局限于机器译文评判,缺乏人工译文评价系统。我们研制了适用于中国学生的汉英译文自动评分系统,实现大规模英语考试中汉英翻译的评分自动化,该系统亦将应用于汉译英的日常训练和考试模拟(王金铨,2011)。


创建汉英自动评分系统需经历五个阶段:语料收集、人工评分、模型创建、模型验证和软件设计。我们收集的翻译语料来自英语专业三、四年级学生,共计300篇限时60分钟的汉英笔译材料,翻译文本为340字左右的叙事文。研究者使用了两个人工评分方案。一个用于建立诊断性测试评分模型,包括形式和语义的详细评分标准;另一个评分方案用于建立选拔性测试评分模型,仅包括区分度强的语义点。第二次评分过程仅为前者的五分之一,大大节约了时间和人力。


评分完毕,语料被随机分为训练集和验证集。模型构建阶段,首先利用多种自然语言处理技术,从训练集译作文本中提取多个能反映学生译作质量的文本特征作为自变量,然后利用统计软件分析自变量与因变量(人工评分)间的相关关系,确定了29个与人工评分存在显著相关性的文本特征项,其中21个为形式特征项,8个为语义特征项。这些文本特征项作为预测因子进入多元回归分析,分别构建诊断性测试评分模型(形式评分模型和语义模型)和选拔性测试评分模型(语义模型)。每次多元回归分析产生一个多元回归方程,该方程可以直接用于汉译英译文的自动评分。模型验证阶段,首先利用模型构建阶段获得的诊断性测试评分模型和选拔性测试评分模型,分别计算验证集中相应译文的得分,然后将模型预测得分与人工评分进行相关性分析,确定评分模型的信度。


研究发现,在诊断性测试评分模型中,篇章形式评分模型的相关系数R为0.740,决定系数R2为0.547;篇章语义评分模型的R为0.891,决定系数R2为0.794,篇章语义模型的预测力明显优于形式模型。统计分析显示篇章译文机器形式评分与人工形式评分之间的相关系数为0.741,机器语义评分与人工语义评分之间的相关系数为0.842。


选拔性测试评分模型由诊断性测试评分模型的语义模块构成,区别在于前者的语义点数量减少,更具区分性。我们构建了四种比例的模型(30:270;50:250;100:200;150:150),训练集达到50篇时,机器评分与人工评分之间的一致性就能达到较高的水平,增加训练集后,模型性能提高有限。综合各项统计数据,100篇训练集和150篇训练集表现都很好。从提高人工评分效率考虑,以100篇训练集构建的评分模型较为符合评分模型的需要。选拔性测试评分模型的多种统计数据基本达到预期目标,为今后模型在大规模翻译测试中的应用进行了有益的探索。


参考文献


王金铨,2011,《中国学生汉译英机助评分模型的研究与构建》[M]。北京:外语教学与研究出版社。


王金铨、文秋芳,2009,中国学生大规模汉译英测试机助评分模型的研究与构建[J]。《现代外语》(4):415-420。


梁茂成教授


英语作文的自动评分研究开始于二十世纪六十年代,目前已经比较成熟。半个多世纪以来,国外已开发出多个作文自动评分系统,并应用于GRE、GMAT、TOEFL等大型考试和写作教学中(Landauer, Laham & Foltz, 2000; Shermis & Burstein, 2003; Dikli, 2006)。在国内,我们吸收国外评分系统的长处,研制了适合中国英语学习者的作文自动评分系统,取得了良好的效果(梁茂成,2011,2012)。


我们最初的研究(梁茂成,2011)使用的语料为1个题目的220篇学生英语作文。研究准备阶段,组织三名评分员对作文的语言、内容和篇章结构分别进行人工评分,然后将作文随机分成训练集(120篇)和验证集(100篇)。在模型构建阶段,利用自然语言处理技术、信息检索技术和语料库研究方法,从训练集中提取若干文本特征项,并分析这些特征与作文总分(均值)之间的相关性,得到15个与作文得分显著相关的文本特征。然后,以这些特征为自变量,以作文得分为因变量,进行多元回归分析,得到一个共含有13个变量的回归模型。在模型验证阶段,利用该回归模型对验证集的100篇作文进行自动评分,得到机器评分结果。在此基础上,又进行双重交叉验证,即基于验证集的100篇作文构建模型,并以此模型对训练集的120篇作文进行自动评分。


研究发现,回归模型对学生英语作文的质量具有较强的预测能力,模型的多元相关系数R = 0.837,判定系数R2 = 0.700。用该模型对验证集作文进行评分,得到的机器评分具有较高的信度。人工评分之间的相关性均值为r = 0.675,而机器评分与人工评分之间的相关性均值达到r = 0.739;在0-6分的量表上,人工评分之间的完全吻合率(percent exact agreement)均值为55.33%,而机器评分与人工评分之间的完全吻合率均值达到59.67%;人工评分之间的相邻及完全吻合率(percent exact-plus-adjacent agreement)均值为98.89%,而机器评分与人工评分之间的相邻及完全吻合率均值达到99.33%。由此可见,机器评分的信度达到甚至超过人工评分的信度。


在后续的研究(梁茂成,2012)中,我们收集了5个不同题目共1067篇大学生英语命题作文,其中4个题目为议论文,1个为说明文。我们同样组织多名人工评分员对作文进行分析型人工评分,然后对这些作文进行多轮、多次抽样,组建训练集,对自行设计的作文评分系统的性能进行较大规模的验证。此外,研究中设计了多达42个变量,据此开发了可操作的计算机程序。研究结果表明,由于我们在英语作文自动评分系统中设置了一些对作文质量具有较强预测能力的文本变量,使得系统的自动评分的评分信度达到了r = 0.752或更高,完全满足统计学和测试学的要求。作文评分系统的评分结果与人工评分的结果之间的吻合率(在0-5的量表上)高于ETS的E-rater。因此,作文自动评分系统已经达到了可操作水平。


参考文献


梁茂成,2011,《中国学生英语作文自动评分模型的构建》[M]。北京:外语教学与研究出版社。


梁茂成,2012,《大规模考试英语作文自动评分系统的研制》[M]。北京:高等教育出版社。


秦颖: 随着机器翻译研究的不断推进,系统译文质量自动评价的研究得到众多关注。不仅是机器译文的质量需要评价,在语言教学和外语类考试中,也有同样强烈的需求。


……


江进林: 已有的人工译文自动评分系统主要评价汉译英,极少数针对人工英译汉的自动评分研究。我们研制了中国学生英译汉的机器评分模型,在人工评分标准、特征提取、语料和人机评分差异的分析方面与已有研究不同。


……


点击下方“阅读原文”进入iResearch外语学术科研网阅读更多精彩内容。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存